<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>深入理解 doc values | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/_deep_dive_on_doc_values.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/_deep_dive_on_doc_values.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/_deep_dive_on_doc_values.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/_deep_dive_on_doc_values.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="aggregations.html">聚合</a></span>
»
<span class="breadcrumb-link"><a href="docvalues-and-fielddata.html">doc values and Fielddata</a></span>
»
<span class="breadcrumb-node">深入理解 doc values</span>
</div>
<div class="navheader">
<span class="prev">
<a href="docvalues.html">« doc values</a>
</span>
<span class="next">
<a href="aggregations-and-analysis.html">聚合与分析 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="_deep_dive_on_doc_values"></a>深入理解 doc values<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/300_Aggregations/93_technical_docvalues.asciidoc">edit</a>
</h2>
</div></div></div>
<p>在上节中一开始我们就说 <code class="literal">doc values</code> 是 <em>"快速、高效并且内存友好"</em> 。
这个口号听不起来不错，不过话说回来 <code class="literal">doc values</code> 到底是如何工作的呢？</p>

<p><code class="literal">doc values</code> 是在索引时与 <code class="literal">倒排索引</code> 同时生成的。也就是说 <code class="literal">doc values</code> 和 <code class="literal">倒排索引</code> 一样，基于 <code class="literal">Segement</code> 生成并且是不可变的。同时 <code class="literal">doc values</code> 和 <code class="literal">倒排索引</code> 一样序列化到磁盘，这样对性能和扩展性有很大帮助。</p>
<p><code class="literal">doc values</code> 通过序列化把数据结构持久化到磁盘，我们可以充分利用操作系统的内存，而不是 <code class="literal">JVM</code> 的 <code class="literal">Heap</code> 。
当 <code class="literal">working set</code> 远小于系统的可用内存，系统会自动将 <code class="literal">doc values</code> 驻留在内存中，使得其读写十分快速；不过，当其远大于可用内存时，系统会根据需要从磁盘读取 <code class="literal">doc values</code>，然后选择性放到分页缓存中。很显然，这样性能会比在内存中差很多，但是它的大小就不再局限于服务器的内存了。如果是使用 <code class="literal">JVM</code> 的 <code class="literal">Heap</code> 来实现那么只能是因为 <code class="literal">OutOfMemory</code> 导致程序崩溃了。  </p>
<div class="note admon">
<div class="icon"></div>
<div class="admon_content">
<p>因为 <code class="literal">doc values</code> 不是由 <code class="literal">JVM</code> 来管理，所以 Elasticsearch 实例可以配置一个很小的 <code class="literal">JVM Heap</code>，这样给系统留出来更多的内存。同时更小的  <code class="literal">Heap</code> 可以让 <code class="literal">JVM</code> 更加快速和高效的回收。</p>
<p>之前，我们会建议分配机器内存的 <code class="literal">50%</code> 来给 JVM Heap。但是对于 <code class="literal">doc values</code>，这样可能不是最合适的方案了。
以 64GB 内存的机器为例，可能给 <code class="literal">Heap</code> 分配 4-16GB 的内存更合适，而不是 32GB。</p>
<p>有关更详细的讨论，查看 <a class="xref" href="heap-sizing.html" title="堆内存:大小和交换">堆内存:大小和交换</a>.</p>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_列式存储的压缩"></a>列式存储(column-store)的压缩<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/300_Aggregations/93_technical_docvalues.asciidoc">edit</a>
</h3>
</div></div></div>
<p>从广义来说，<code class="literal">doc values</code> 本质上是一个序列化的 <em>列式存储</em> 。
正如我们上一节所讨论的，<em>列式存储</em> 适用于聚合、排序、脚本等操作。</p>
<p>而且，这种存储方式也非常便于压缩，特别是数字类型。这样可以减少磁盘空间并且提高访问速度。现代 <code class="literal">CPU</code> 的处理速度要比磁盘快几个数量级（尽管即将到来的 NVMe 驱动器正在迅速缩小差距）。所以我们必须减少直接存磁盘读取数据的大小，尽管需要额外消耗 CPU 运算用来进行解压。</p>
<p>要了解它如何压缩数据的，来看一组数字类型的 <code class="literal">doc values</code>：</p>
<pre class="literallayout">Doc      Terms
-----------------------------------------------------------------
Doc_1 | 100
Doc_2 | 1000
Doc_3 | 1500
Doc_4 | 1200
Doc_5 | 300
Doc_6 | 1900
Doc_7 | 4200
-----------------------------------------------------------------</pre>

<p>按列布局意味着我们有一个连续的数据块： <code class="word">[100,1000,1500,1200,300,1900,4200]</code> 。因为我们已经知道他们都是数字（而不是像文档或行中看到的异构集合），所以我们可以使用统一的偏移来将他们紧紧排列。</p>
<p>而且，针对这样的数字有很多种压缩技巧。你会注意到这里每个数字都是 100 的倍数，<code class="literal">doc values</code> 会检测一个段里面的所有数值，并使用一个 <em>最大公约数</em> ，方便做进一步的数据压缩。</p>
<p>如果我们保存 <code class="literal">100</code> 作为此段的除数，我们可以对每个数字都除以 100，然后得到：  <code class="literal">[1,10,15,12,3,19,42]</code> 。现在这些数字变小了，只需要很少的位就可以存储下，也减少了磁盘存放的大小。</p>
<p><code class="literal">doc values</code> 在压缩过程中使用如下技巧。它会按依次检测以下压缩模式:</p>
<div class="olist orderedlist">
<ol class="orderedlist">
<li class="listitem">
如果所有的数值各不相同（或缺失），设置一个标记并记录这些值
</li>
<li class="listitem">
如果这些值小于 256，将使用一个简单的编码表
</li>
<li class="listitem">
如果这些值大于 256，检测是否存在一个最大公约数
</li>
<li class="listitem">
如果没有存在最大公约数，从最小的数值开始，统一计算偏移量进行编码
</li>
</ol>
</div>
<p>你会发现这些压缩模式不是传统的通用的压缩方式，比如 DEFLATE 或者 LZ4</code>。
因为列式存储的结构是严格且良好定义的，我们可以通过使用特殊的方案来达到比通用压缩算法（如 LZ4 ）更高的压缩效果。</p>
<div class="note admon">
<div class="icon"></div>
<div class="admon_content">
<p>你也许会想 <em>"好吧，貌似对数字很好，不知道字符串怎么样？"</em>
通过借助顺序表（ordinal table），String 类型也是类似进行编码的。String 类型是去重之后存放到顺序表的，通过分配一个 ID，然后通过数字类型的 ID 构建 <code class="literal">doc values</code>。这样 String 类型和数值类型可以达到同样的压缩效果。</p>
<p>顺序表本身也有很多压缩技巧，比如固定长度、变长或是前缀字符编码等等。</p>
</div>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_禁用_doc_values"></a>禁用 doc values<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/300_Aggregations/93_technical_docvalues.asciidoc">edit</a>
</h3>
</div></div></div>
<p><code class="literal">doc values</code> <b>默认对所有字段启用，除了 <code class="literal">analyzed strings</code></b>。也就是说所有的数字、地理坐标、日期、IP 和不分析(<code class="literal">not_analyzed</code>)的字符串类型都会默认开启。</p>

<p><code class="literal">analyzed strings</code> 暂时还不能使用 <code class="literal">doc values</code>。文本经过分析流程生成很多 <code class="literal">token</code>，使得 <code class="literal">doc values</code> 不能高效运行。我们将在  <a class="xref" href="aggregations-and-analysis.html" title="聚合与分析">聚合与分析</a> 讨论如何使用分析字符类型来做聚合。</p>

<p>因为 <code class="literal">doc values</code> 默认启用，你可以选择对数据集里面的大多数字段进行聚合和排序操作。但是你怎么知道 你永远也不会对某些字段进行聚合、排序或是使用脚本操作呢？</p>

<p>尽管这并不常见，但是你可以通过禁用特定字段的 <code class="literal">doc values</code> 。这样不仅节省磁盘空间，也许会提升索引的速度。</p>

<p>要禁用 <code class="literal">doc values</code> ，在字段的映射(mapping)中设置 <code class="literal">doc_values: false</code> 即可。例如，这里我们创建了一个新的索引，字段 <code class="word">"session_id"</code> 禁用了 <code class="literal">doc values</code>：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "session_id": {
          "type":       "string",
          "index":      "not_analyzed",
          "doc_values": false <a id="CO215-1"></a><i class="conum" data-value="1"></i>
        }
      }
    }
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO215-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>通过设置 <code class="literal">doc_values: false</code> ，这个字段将不能被用于聚合、排序以及脚本操作</p>
</td>
</tr>
</table>
</div>
<p>反过来也是可以进行配置的：让一个字段可以被聚合，通过禁用倒排索引，使它不能被正常搜索，例如：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "customer_token": {
          "type":       "string",
          "index":      "not_analyzed",
          "doc_values": true, <a id="CO216-1"></a><i class="conum" data-value="1"></i>
          "index": "no" <a id="CO216-2"></a><i class="conum" data-value="2"></i>
        }
      }
    }
  }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO216-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">doc values</code> 被启用以允许聚合</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO216-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p>(倒排)索引被禁用了，这让该字段不能被查询/搜索</p>
</td>
</tr>
</table>
</div>
<p>通过设置 <code class="literal">doc_values: true</code> 和 <code class="literal">index: no</code> ，我们得到一个只能被用于聚合/排序/脚本的字段。无可否认，这是一个非常少见的情况，但有时很有用。</p>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="docvalues.html">« doc values</a>
</span>
<span class="next">
<a href="aggregations-and-analysis.html">聚合与分析 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>